11. 实现
实现:Sarsamax
你可以在下方找到 Sarsamax(或 Q 学习)的伪代码。

Sarsamax 会在保证 Sarsa 会收敛的同一条件下保证收敛。
请在下个部分完成 Temporal_Difference.ipynb
的第 3 部分:TD 控制:Q 学习。请记得保存内容!
你可以查看 Temporal_Difference_Solution.ipynb
的相应部分,检查你的解决方案是否正确。
你可以在下方找到 Sarsamax(或 Q 学习)的伪代码。
Sarsamax 会在保证 Sarsa 会收敛的同一条件下保证收敛。
请在下个部分完成 Temporal_Difference.ipynb
的第 3 部分:TD 控制:Q 学习。请记得保存内容!
你可以查看 Temporal_Difference_Solution.ipynb
的相应部分,检查你的解决方案是否正确。